查看原文
其他

提升统计功效,让评审心服口服!| 说人话的统计学·协和八

2015-08-20 张之昊 协和八

在前两集《做统计,多少数据才算够?》里点这里回顾:上集下集,我们用不短的篇幅介绍了统计功效这个概念,并且还讲述了运用功效分析估算所需数据量的一般方法。

今天我们回过头来看看统计功效本身:

它指的是,如果假定的效应的确存在,我们有多大可能能得到具有统计学意义上的显著性的结果。

我们为什么要关心这个?

对于需要发文章来毕业、评职称、拿基金的你来说,当然希望得到显著的结果啦!

而怎样做才能增大这种可能呢?

首先,一切的一切,都基于“如果假定的效应的确存在”这个前提

也就是说,我们对于自己所要研究的问题得有清楚的认识,对能够观察到怎样的效应有大致正确的预测。这件事儿统计学帮不上太大的忙,归根结底靠的还是我们对自己做科研这一亩三分地的掌握程度。如果一上来认定的假说就错了,统计学可没法拨乱反正。

然后,在正确的假说的指引之下,我们设计实验,收集数据,进行统计分析。

可千万不要以为假想对了就万事大吉了:一个好的实验方案(包括变量的选择、流程的设计、受试数量的确定、统计测试的使用等诸多方面)能够大大增加获得显著结果的可能性;而一个糟糕的实验方案则会导致统计功效不足,可能让你错过了本来属于你的大发现,岂不可惜?

有些时候,问题的严重程度还不只是没能整出个大新闻那么简单。

比方说,我们研究的是一个新药是否有副作用。事实上这个药物有肾毒性,却因为实验的统计功效太低,导致我们做出错误地结论,说此药物与空白对照(或其他药物)之间没有显著区别,那可就摊上大事儿了。

这可不是我拍脑袋编出来的故事,2009年发表在Journal of Clinical Epidemiology(《临床流行病学学报》)上的一篇文章[1]对发表在顶尖临床医学杂志如《柳叶刀》、《新英格兰医学杂志》、《英国医学杂志》上的389篇研究药物副作用的论文进行了分析,发现这些论文中报告了阴性结果(即没有显著区别)的研究的统计功效只有0.07到0.37。简单地说,即使副作用真的存在,这些研究也只有7%到37%的可能性能够真的得到相应的具有显著性的结果

那么,

我们应该怎样设计实验

才能有效地提高统计功效呢?

在上两集里,我们反复提到,统计功效由三要素决定

数据量

显著性水平

效应大小(效果量)

要提高统计功效,我们还是先得在这三要素上下功夫:

办法1:

增加数据量

我们说过,如果其他因素都不变,数据量越大,统计功效就越高

这恐怕是提高统计功效最直接(也是成本最高)的方法了。在金钱和时间允许的情况下,增加数据量,总能提高统计功效。

我知道你一定要说:“在金钱和时间允许的情况下”,这不废话么?我姑且不跟你哭穷,等到我把那么多数据都收集完了,对门实验室的小明都把同样的文章发出去了,还有我什么事儿么?

别急,单纯增加数据量的确不易,但在具体操作上,这条原则还是有空间可挖的:

办法1.1:

增加比较容易获得的组别的样本量

许多研究都涉及两个或更多不同组别的样本之间的比较,比如说男性与女性、干预组和空白对照组、不同种族或不同基因型等等。

如果增加总体样本量有客观困难,不妨考虑是否有某些组别更容易获得,或者是否在某些组别上进行实验成本较低。

最典型的例子是某些侵入性较强的临床实验,干预组的受试者数量通常十分有限,得到一个受试者的成本(寻找等待的时间、需支付的费用等)也比较高。这时,我们可以增加对照组的样本量,这同样可以达到提高统计功效的目的。

这一方法也可以运用在自变量为连续变量(比如年龄、收入、身高等)的情形。如果自变量的某些范围内的样本量比较少,我们也可以增加容易得到的其他范围的样本量,由此提高统计功效。

当然,这个办法的效果并不是无限的。对于只有两个组的情形,一条经验法则是,如果其中一组的样本量已经达到另外一组的两倍,再继续增加第一组的样本也起不了太多作用了。

办法1.2:

尽可能减少数据的损失

如果数据量由于客观原因无法增加,或者实验已经在进行中,我们的任务就变成了不要因为损失数据而降低统计功效

这一条听起来似乎很琐碎,但在长期跟踪回访或重复实验的纵向研究中尤其重要

在跟踪回访型的流行病学研究中,总是难以避免与部分受试者失去联系。而在一些干预实验中,如果干预本身会对受试者带来一定的痛苦或不便,那么就可能导致部分干预组的受试者退出研究;相反,如果干预会对受试者带来益处,而对照组没有任何作用,则可能在对照组中损失更多受试者。

无论哪种情况,我们都应该运用我们的经验,做好相应的防范措施,减少数据的损失,并在研究开始前将不可避免的损失考虑在样本量的计算中。

办法2:

放宽显著性水平的要求

我们知道,一般人们都把显著性的界限定在0.05。如果我们把这个界限放宽一些,比如说提高到0.1,那么得到显著性结果也就更容易了,统计功效也就随之提高。

当然,显著性水平的标准可不是任人打扮的小姑娘,你可以自己放宽标准,至于审稿人答不答应可就是另外一回事了。所以,要提高统计功效,在显著性水平上做文章恐怕是最难走通的一条路。

然而,也有极个别的例外:

办法2.1:

报告p值在0.05和0.1之间的结果

在上一集中我们提到过,在一些新异的、具有潜在突破性的研究中,出于鼓励后续研究的目的,有时人们会网开一面,允许把显著性界限放宽到0.1。

当然,到底什么时候能这么干,谁也说不准。更实际一点说,如果一篇文章里大多都是很过硬的数据,塞进去一个只能满足p<0.1的结果可能审稿人也不会有太大意见。但如果想让一个处于灰色地带的结果挑大梁撑门面,这恐怕就难以让人信服了。

办法2.2:

使用单侧检验

很多统计学检验有单侧、双侧之分。这是什么意思呢?

简单地说,双侧检验并不对效应的方向做假设,或者说认为大小相同、方向相反的效应是等同的;而单侧检验则事先认定效应存在特定的方向。

还记得第一集《你真的懂p值吗?》中蓝精灵和格格巫掷钢镚儿的故事吗?(点这里回顾:你真的懂p值吗

蓝精灵掷5次钢镚儿得到了5个正面,当时我们在计算p值的时候,替蓝精灵做了一个假设:如果钢镚儿不均匀,它只可能偏向正面(因为钢镚儿是格格巫的,而反面对格格巫不利)。

在这个假设下,我们做的就是单侧检验。

因此,在计算p值时,“与实际数据相同或更极端的结果”只有5个正面这一种,从而在钢镚儿均匀的原假设下,p值是1/2的5次方,即0.03125。

但是,如果我们不做那个假设,认为钢镚儿既可能偏向正面,也可能偏向反面,这时“与实际数据相同或更极端的结果”就包括5个正面和5个反面两种情况了——因为在双侧检验中,我们不考虑效应的具体方向。

此时,p值就变成了1/2的5次方再乘以2,即0.0625。

从这个例子里可以看到,选用单侧检验的效果实际上是使p值减半,从而一部分在双侧检验下不显著的结果在单侧检验时就变得显著了

但是,必须强调的是:

要使用单侧检验,必须有很强的理论基础,能够支持我们对效应方向的假设,而且这一决策必须在分析数据前做出。

如果用双侧检验分析完之后发现p值不够小,再来改用单侧检验,这就是作弊了。

办法3:

增强效应大小(效果量)

在其他因素恒定的情况下,效果量越大,统计功效就越高。因此要想提高统计功效,我们的实验设计应当尽可能扩大可测得的效应大小。这可以通过几种不同的途径实现:

办法3.1:

加大干预的强度

如果我们的研究是关于某种干预(如药物、物理治疗、行为训练等)的效果,一种简单但很有效的方法是使用更强的干预(比如更大剂量的药物、更长时间的训练等)。

当然,在使用这一方法时,必须把监管、成本等因素考虑进去。比如说,一些药物在人体实验中有最高剂量的限制。

更广义地说,除了单纯增强干预以外,我们还可以引入新的干预内容,例如同时使用多种药物等。不难想象,这样做同样存在代价,那就是引进了新的因素,使实验和随后的分析变得更复杂了。

办法3.2:

对极端群体作比较

在一些研究中,我们无法直接控制感兴趣的自变量。这种情况往往发生在观察性或回顾性研究中,由于实验者不能主动操纵自变量,因而上一条方法就不适用了。

如果自变量是一个在某个范围内可以连续取值的变量(如年龄、血糖浓度等),为了增强效应大小我们可以采取对自变量“取两头、弃中间”的办法,从而放大不同个体间的差异。

在此,请允许我厚颜无耻地引用一个本人在去年发表的研究[5]。在这个课题中,我们想探索肥胖人群与正常体重人群的学习能力是否存在差异。

大家知道,一个人肥胖与否可以通过体重指数(body mass index, 缩写为BMI)来表示。如果BMI在18到25之间为正常;25到30之间为超重;30以上为肥胖。

为了尽可能扩大效应大小,我们只选择了BMI在18-25之间与30以上的受试者,并对两者进行比较,而没有使用整个BMI范围的受试者。

办法3.3:

引进控制变量

(control variables/covariates)

很多时候,尽管我们研究真正感兴趣的只有一两个自变量,我们依然会收集它们以外的许多其他变量的信息,并把这些变量包括在我们的统计分析中。这些变量就是我们所说的控制变量

虽然我们的出发点并不是研究这些变量,但是它们可能可以消除数据中与我们真正感兴趣的自变量无关的噪音,从而增强我们能观察到的效应大小。

例如,我们想研究一种新型的受体拮抗剂对抑郁症状的疗效。由于这种药物与某些激素存在相互作用,导致该药物对女性的作用大大高于男性。如果我们不将性别的因素考虑进来,当我们比较干预组和对照组时,由于两组受试者中男性的存在,平均的疗效差异就会被拉低,统计功效也随之降低了。如果我们将性别作为控制变量,药物对女性的疗效就更容易表现为具有统计学显著性的结果了。

办法3.4:

采用重复测量

(repeated measures)

或组内(within-subjects)设计

在可行的情况下,采用重复测量(在同一组受试者上分别实施干预和对照)设计能够有效降低组间设计(在不同的受试者上进行不同的干预)中由于个体不同所带来的随机噪音,从而也能增强效应大小,进而提高统计功效。

以上这些,是我们根据统计功效的三个决定因素而提出的提高统计功效的一些基本原理。

在以后我们讲到具体的统计学测试时,还会根据特定测试的特点进一步介绍专门的提高统计功效的方法。

值得强调的是,所有这些方法,都应该在实验设计的阶段考虑——再聪明的数据分析方法都比不上一个合理有效的设计来得重要,而设计好一个实验,不仅是一项技术,更是一门需要经验的艺术


回复「说人话的统计学」查看本系列全部文章。

参考文献

1. Tsang, R., Colley, L., & Lynd, L. D. (2009). Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. Journal of clinical epidemiology, 62(6), 609-616.

2. Reinhart, Alex. "Statistics done wrong." (2014).

3. Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press.

4. Hansen, W. B., & Collins, L. M. (1994). Seven ways to increase power without increasing N. NIDA research monograph, 142, 184-184.

5. Zhang, Z., Manson, K. F., Schiller, D., & Levy, I. (2014). Impaired associative learning with food rewards in obese women. Current Biology, 24(15), 1731-1736.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存